My Notes

Created: 2026-03-06 07:53:04

Updated: 2026-03-06 07:53:04

随机变量X的熵： $H(X) = -\sum p(x)\log_{2}p(x)$ ， $H(X)$ 是描述信息量比特数的下限。

信息论中的信息熵和统计物理中的熵紧密相关。如果我们画出n个独立同分布的随机变量序列，则每个序列出现的概率将是大约 $2^{-nH(X)}$

随机变量的描述性复杂度可以扩展到描述一个字符串的复杂度。Kolmogorov Complexity就是用来描述这种复杂度的。它被定义为生成一个字符串的最短程序的长度。如果字符串是随机的，那么它的Kolmogorov Complexity接近于熵。

Conditional Entropy: 在一个随机变量给定情形下，另一个随机变量的熵。由于另一个随机变量确定后减少的那部分不确定性称为共同信息(mutual information)。对两个变量X，Y，这个减少量为：

$I(X;Y) = H(X)-H(X|Y) = \sum_{x,y} p(x,y)\log \frac{p(x,y)}{p(x)p(y)}$

共同信息是对两个独立变量依赖性的度量。它关于XY对称，且总是非负的

一个信道（channel） 是一个系统，它的输出概率地取决于输入，它可以由一个在给定输入下输出概率的概率转移矩阵描述。对于输入X、输出Y的信道，定义它的容量

$C=\max_{p(x)}I(X;Y)$

C is the maximum rate we can send information over the channel and recover the information at the output with a vanishingly low probility of error.
几个例子：

Noiseless binary channel: 输入端输入为0或1，输出也为0或1，且输出严格等于输入. $C=\max I(X,Y)=1\text{bit}$
Noisy 4-symbol channel: 输入输出端均为1-4，但 $输出=输入$ 的概率为50%， $输出\equiv输入+1 \text{(mod 4)}$ 的概率也为50%；如下图所示。

此时如果用两个输入，那么可以立刻得知发送了哪个符号。这个信道就如同前面一样，是一个无噪声的信道

一般而言，通讯信道不会有如此简单的结构，因此我们不能识别一个输入的子集，从而无错误地传输信息。但如果考虑一个序列的传输，那么所有信道与例子中类似，我们可以找出能被用于通过信道传递信息的输入序列的子集，使得与每个codeword相关的可能的输出结果序列大约是分隔的。之后，我们就可以通过查看输出序列，以极低的错误率找出输入序列。

Binary symmetric channel: 这是含噪声通信系统的基本例子。信道有01两个输入，以 $1-p$ 的概率正确输出，以 $p$ 的概率反转输入。这时信道容量为 $C=1+p\log p+(1-p)\log(1-p)$ 比特/传输。不过，如何达到这样的容量变得不再明显。如果信道被多次使用，我们就可以以速率C、以任意低的错误率传输信息。
最终通过信道传输信息的速率由信道容量给出。共同信息是相对熵的一个特殊情形。相对熵 $D(p\mid\mid q)$ 是对两个概率分布函数 $p,q$ 之间距离的度量。它被定义为：
$D(p\mid\mid q)=\sum_{x}p(x)\log \frac{p(x)}{q(x)}$
尽管它不是一个真正的度量，它还是保有一些度量的性质：非负性，且 $D(p\mid\mid q)=0$ 当且仅当 $p=q$ 。

股市投资与信息论之间有很多相似之处。股票市场由一个随机矢量 $X$ 定义，它的全部元素非负，代表每日结束时每股价格和每日开始时每股价格。对于拥有分布 $F(x)$ 的股市，我们定义doubling rate $W$ :

$W= \max _{\mathbf{b}:b_{i}\geq 0,\sum b_{i}=1}\int \log \mathrm{b}^t\mathbf{x} \, d\mathbf{F}(\mathbf{x})$

它是财富增长的最大渐进指数，与熵的性质有很多平行之处。

Leave a Comment